21 research outputs found

    Through the Eyes of VERTa

    Get PDF
    [eng] This paper describes a practical demo of VERTa for Spanish. VERTa is an MT evaluation metric that combines linguistic features at different levels. VERTa has been developed for English and Spanish but can be easily adapted to other languages. VERTa can be used to evaluate adequacy, fluency and ranking of sentences. In this paper, VERTa's modules are described briefly, as well as its graphical interface which provides information on VERTa's performance and possible MT errors. [spa] Este artículo describe la demostración práctica de VERTa para el castellano. VERTa es una métrica de evaluación de traducción automática que combina información lingüística a diferentes niveles. VERTa ha sido desarrollada para el inglés y el castellano pero se puede adaptar fácilmente a otras lenguas. La métrica puede evaluar la adecuación, la fluidez y ranking de frases. En este artículo se describen brevemente los módulos de VERTa y su interficie gráfica, la cual proporciona información sobre el rendimiento de la métrica y posibles errores de traducción

    VERTa: una métrica de evaluación de la traducción automática. Aplicaciones a la investigación sobre el español y el inglés como L2

    Full text link
    [spa] Este artículo presenta VERTa (https://github.com/jatserias/VERTa para la versión completa y http://grial.ub.edu:8080/VERTaDemo/ para la demo online en español), una métrica de evaluación de la traducción automática (TA) para el inglés y el español. VERTa es una métrica que utiliza información lingüística para evaluar frases traducidas automáticamente, a través de la comparación de dichas frases con frases traducidas por traductores humanos. A diferencia de otras métricas, VERTa proporciona no tan solo una puntuación por cada frase, sino también un análisis más cualitativo de los resultados obtenidos. El artículo analiza los pasos que se llevaron a cabo antes de diseñar e implementar la métrica: el estudio lingüístico del corpus de desarrollo para encontrar aquellas características más significativas que la métrica debía poder cubrir y las herramientas de procesamiento del texto que debían aplicarse a los segmentos comparados. Más adelante se describen los diferentes módulos que forman la métrica y la información que aportan, junto con ejemplos de la información que recibe el usuario. Aunque VERTa es una métrica de evaluación de la TA, se diferencia del resto en que durante su desarrollo se puso especial énfasis en analizar la información lingüística que debía aportar al usuario, para ir más allá de una mera puntuación del segmento traducido y poder servir como una primera guía cualitativa para detectar los errores de la traducción automática. En consecuencia, VERTa puede utilizarse en el área del aprendizaje, de la enseñanza y de la evaluación del inglés y del español como segundas lenguas y como lenguas extranjeras, así como en la investigación en este campo.[cat] Aquest article presenta VERTa (https://github.com/jatserias/VERTa per a la versió completa i http://grial.ub.edu:8080/VERTaDemo/ per a la demo online en castellà), una metrica d’avaluació de la traducció automàtica (TA) per a l’anglès i el castellà. VERTa utilitza informació lingüística per avaluar frases traduïdes automàticament, tot comparant-les amb frases traduïdes per traductors humans. A diferència d’altres mètriques, VERTa no només proporciona una puntuació per a cada frase traduïda, sinó que també fa una anàlisi més qualitativa dels resultats obtinguts. Aquest article descriu les passes que es van realitzar abans de dissenyar i implementar la mètrica: l’estudi lingüístic del corpus de desenvolupament per tal de trobar les característiques lingüístiques més rellevants que la mètrica havia de tractar i les eines de processament textual amb què s’haurien de tractar els segments comparats. A més, l’article analitza els mòduls que formen la mètrica i la informació que proporcionen, juntament amb exemples de la informació que rep l’usuari. Tot i que VERTa és una mètrica d’avaluació de la TA, es diferencia de la resta de mètriques pel fet que la informació que proporciona va més enllà d’una simple puntuació del segment avaluat i serveix com una primera guia qualitativa per detectar errors de traducció automàtica. En conseqüència, VERTa pot utilitzar-se per a l’aprenentatge, l’ensenyament i l’avaluació de l’anglès i el castellà com a segones llengües o com a llengües estrangeres, i també per a la recerca en aquesta àrea.[eng] This article presents VERTa (https://github.com/jatserias/VERTa for the full version and http://grial.ub.edu:8080/VERTaDemo/ for the Spanish online demo), a machine translation (MT) evaluation metric for English and Spanish. VERTa uses linguistic information to evaluate machine-translated sentences by comparing them with sentences translated by human translators. Unlike other metrics, VERTa provides not only a score for each sentence compared, but also a more qualitative analysis of the results obtained. This article discusses the steps carried out before designing and implementing the metric: the linguistic study of the development corpus to find the most relevant linguistic features that the metric should be able to cover, and the text processing tools to be applied to the compared segments. In addition, it details the modules included in the metric and the information they provide, together with examples of the information the user receives. Although VERTa is an MT evaluation metric, it differs from the rest in that during its development special emphasis was placed on analyzing the linguistic information it should provide to the user, thus going beyond a mere scoring of the translated segment and serving as a first qualitative guide to detect machine translation errors. Consequently, VERTa can be used for the learning, teaching and evaluation of English and Spanish as second and/or foreign languages, as well as to carry out research studies in this are

    A Través de los Ojos de VERTa

    Get PDF
    This paper describes a practical demo of VERTa for Spanish. VERTa is an MT evaluation metric that combines linguistic features at different levels. VERTa has been developed for English and Spanish but can be easily adapted to other languages. VERTa can be used to evaluate adequacy, fluency and ranking of sentences. In this paper, VERTa’s modules are described briefly, as well as its graphical interface which provides information on VERTa’s performance and possible MT errors.Este artículo describe la demostración práctica de VERTa para el castellano. VERTa es una métrica de evaluación de traducción automática que combina información lingüística a diferentes niveles. VERTa ha sido desarrollada para el inglés y el castellano pero se puede adaptar fácilmente a otras lenguas. La métrica puede evaluar la adecuación, la fluidez y ranking de frases. En este artículo se describen brevemente los módulos de VERTa y su interficie gráfica, la cual proporciona información sobre el rendimiento de la métrica y posibles errores de traducción.This work has been funded by the Spanish Government (project TUNER, TIN2015-65308-C5-1-R)

    Constituency and Dependency Parsers Evaluation

    Get PDF
    This work presents the quantitative and qualitative evaluation of a set of both constituency and dependency parsers which are to be used in the development of a knowledgebased automatic MT metric. Firstly, the methodology used in both types of evaluation is described; secondly, we show the results obtained, and finally we draw some conclusions

    Evaluación de analizadores de constituyentes y de dependencias

    Get PDF
    El presente trabajo muestra la evaluación cuantitativa y cualitativa de un grupo de analizadores de constituyentes y de dependencias con el objetivo de ser usados en el desarrollo de una métrica automática basada en conocimiento para evaluar la salida de sistemas de traducción automática. Primero se describe la metodología seguida en ambos tipos de evaluación y a continuación se muestran los resultados obtenidos y las conclusiones alcanzadas.This work presents the quantitative and qualitative evaluation of a set of both constituency and dependency parsers which are to be used in the development of a knowledge-based automatic MT metric. Firstly, the methodology used in both types of evaluation is described; secondly, we show the results obtained, and finally we draw some conclusions.This work has been funded by the Spanish Government project KNOW, TIN2009-14715-C0403

    The CPDB: a learning and teaching corpus-based methodological tool

    Get PDF
    Corpus-based methodological tools and NTICs have recently become a commonplace in the teaching-learning of SL and FL, as they allow the language learner to become aware of the complexities of real language in use. As part of a teaching innovation project, GReLiC has recently developed a database of English clause patterns. This study shows the lexico-grammatical information provided in the database as well as some of its pedagogical applications in the linguistics classroom

    Joint Playback Delay and Buffer Optimization in Scalable Video Streaming

    Get PDF
    This paper addresses the problem of the transmission of scalable video streams to a set of heterogeneous clients through a common bottleneck channel. The packet scheduling policy is typically crucial in such systems that target smooth media playback at all the receivers. In particular, the playback delays and the transmission strategy for the packets of the different layers have to be chosen carefully. When the same video is sent simultaneously to multiple clients that subscribe to different parts of the stream, the playback delay cannot be jointly minimized for all the clients. We therefore propose delay optimization strategies along with low complexity solutions for a fair distribution of the delay penalty among the different receivers. Once the delays are selected, we show that there exists a unique scheduling solution that minimizes the buffer occupancy at all the receivers. We derive an algorithm for computing the optimal sending trace, and we show that optimal scheduling has to respect the order of the packets in each media layer. Interestingly enough, solving both delay and buffer optimization problems sequentially leads to a jointly optimal solution when the channel is known. We finally propose a simple rate adaptation mechanism that copes with unexpected channel bandwidth variations by controlling the sending rate and dropping layers when the bandwidth becomes insufficient. Experimental results shows that it permits to reach close to optimal performances even if the channel knowledge is reduced. Rate adaptation provides an interesting alternative to conservative scheduling strategies, providing minor and controllable quality variations, but with a higher resulting average quality

    Elaboració d’un glossari sintàctico-semàntic

    Get PDF
    En projectes anteriors havíem desenvolupat una base de dades de patrons sintàctics, la Clause Pattern DB (CPDB), als quals havíem associat estructures d’arbre i de la qual hem pogut extreure àgilment informació directament relacionada amb els continguts de la matèria. Quant als beneficis pedagògics, cal destacar que aquest recurs docent està contribuint, d'una banda, a la millora i ampliació dels tipus d’exercicis dissenyats en anteriors projectes i, d'una altra, a la creació de materials didàctics, ja sigui des de la perspectiva de l'alumnat (models d’exercicis diversos com per exemple, l’ús de bases de dades, anàlisis sintàctiques amb estructures d’arbre, etc.) com des de la del professorat (eines d'avaluació d'aprenentatge i il•lustració de continguts). Arran d'aquesta innovació, vàrem detectar que l'alumnat de Gramàtica descriptiva I, II i III i Lexicologia i morfologia anglesa (totes quatre assignatures són obligatòries en el grau d’Estudis anglesos) mostrava certes confusions terminològiques, derivades de la manca d’homogeneïtzació terminològica en aquestes assignatures. Érem conscients que aquesta confusió terminològica incidia negativament en l'assimilació de conceptes clau, així com en les anàlisis sintàctiques que l’alumnat ha de produir a les esmentades assignatures. Ens vàrem proposar, doncs, elaborar un glossari terminològic i pilotar-lo a l’aula per determinar la seva incidència en l’aprenentatge de l’alumnat

    Elaboració d'un glossari sintàctico-semàntic

    Get PDF
    En projectes anteriors havíem desenvolupat una base de dades de patrons sintàctics, la Clause Pattern DB (CPDB), als quals havíem associat estructures d’arbre i de la qual hem pogut extreure àgilment informació directament relacionada amb els continguts de la matèria. Quant als beneficis pedagògics, cal destacar que aquest recurs docent està contribuint, d'una banda, a la millora i ampliació dels tipus d’exercicis dissenyats en anteriors projectes i, d'una altra, a la creació de materials didàctics, ja sigui des de la perspectiva de l'alumnat (models d’exercicis diversos com per exemple, l’ús de bases de dades, anàlisis sintàctiques amb estructures d’arbre, etc.) com des de la del professorat (eines d'avaluació d'aprenentatge i il•lustració de continguts). Arran d'aquesta innovació, detectàrem que l'alumnat de Gramàtica descriptiva I, II i III i Lexicologia i morfologia anglesa (totes quatre assignatures són obligatòries en el grau d’Estudis anglesos) mostrava certes confusions terminològiques, derivades de la manca d’homogeneïtzació terminològica en aquestes assignatures. Érem conscients que aquesta confusió terminològica incidia negativament en l'assimilació de conceptes clau, així com en les anàlisis sintàctiques que l’alumnat ha de produir a les esmentades assignatures. Ens vàrem proposar, doncs, elaborar un glossari terminològic i pilotar-lo a l’aula per determinar la seva incidència en l’aprenentatge de l’alumnat

    Automatic Machine Translation Evaluation: A Qualitative Approach

    Get PDF
    [cat] Aquesta tesi versa sobre el problema de l’avaluació de la traducció automàtica des d’una perspectiva lingüística. La majoria d’estudis realitzats en aquesta àrea són estudis quantitatius basats en coeficients de correlació, tanmateix, molt poca recerca s’ha centrat en un enfocament més qualitatiu, que vagi més enllà de les correlacions i analitzi les dades detalladament. Aquest treball vol portar llum a la idoneïtat, la influència i la combinació de la informació lingüística necessària per avaluar la sortida de traducció automàtica. En concret, es pretén emfasitzar l’efectivitat de l’anàlisi lingüística per identificar i examinar aquells trets lingüístics que ajudin a avaluar els conceptes tradicionals de fluïdesa i adequació. Per tal de realitzar aquest estudi s’ha treballat amb l’anglès com a llengua d’arribada, tot i que també s’ha tingut en compte el castellà en l’última etapa. El punt inicial d’aquest treball ha estat una anàlisi lingüística dels segments d’hipòtesi i de referència per tal de trobar tant aquells errors lingüístics que una mètrica automàtica d’avaluació ha de poder detectar, com identificar aquelles característiques lingüístiques que cal tenir en compte i tractar com a fenòmens lingüísticament correctes. Després d’aquesta anàlisi, s’ha dissenyat i implementat una mètrica d’avaluació automàtica, VERTa, que ha d’ajudar a confirmar les hipòtesis formulades i comprovar si els fenòmens i trets lingüístics detectats en l’anàlisi inicial són útils per avaluar text traduït automàticament. Amb aquesta primera versió de la mètrica s’han realitzat una sèrie d’experiments, així com unes anàlisis quantitatives i qualitatives per comprovar la idoneïtat dels trets lingüístics seleccionats i explorar com s’han de combinar per avaluar la fluïdesa i l’adequació per separat. Després d’aquests experiments i de les anàlisis pertinents, s’han ajustat els paràmetres de la mètrica per tal d’obtenir-ne una nova versió. Aquesta nova versió s’ha utilitzat per realitzar una meta-avaluació de la mètrica, comparant-la amb d’altres mètriques d’avaluació àmpliament conegudes i utilitzades dins de l’àrea. Els resultats obtinguts per la VERTa en relació a l’avaluació de fluïdesa i l’adequació han superat els de la resta de mètriques. Finalment, s’ha adaptat la mètrica al castellà per tal d’estudiar quines característiques lingüístiques incloses en la mètrica s’havien de retocar, quins canvis calia fer, i si era fàcil adaptar la mètrica a una nova llengua.[eng] The present study addresses the problem of Automatic Evaluation of Machine Translation (MT) from a linguistic perspective. Most of the studies performed in this area focus on quantitative analyses based on correlation coefficients; however, little has been done as regards a more qualitative approach, going beyond correlations and analysing data in detail. This thesis aims at shedding some light on the suitability, influence and combination of linguistic information to evaluate MT output, not restricting our research to the correlation with human judgements but basing it on a qualitative analysis. More precisely, this research intends to emphasize the effectiveness of linguistic analysis in order to identify and test those linguistic features that help in evaluating traditional concepts of adequacy and fluency. In order to perform this research we have focused on MT output in English, with an application to Spanish so as to test the portability of our approach. The starting point of this work was a linguistic analysis of both MT output and reference segments with the aim of highlighting not only those linguistic errors that an automatic MT evaluation metric must identify, but also those positive linguistic features that must be taken into account, identified and treated as correct linguistic phenomena. Once the linguistic analysis was conducted and in order to confirm our hypotheses and check whether those linguistic phenomena and traits identified in the analysis were helpful to evaluate MT output, we designed and implemented a linguistically-motivated MT metric, VERTa, to evaluate English output. Several experiments were conducted with this first version of VERTa in order to test the suitability of the linguistic features selected and how they should be combined so as to evaluate fluency and adequacy separately. Besides using information provided by correlations as a guide we also performed a detailed analysis of the metric’s output every time linguistic features were added and/or combined. After performing these experiments and checking the suitability of the linguistic information used and how it had to be used and combined, VERTa’s parameters were adjusted and an updated and optimised version of the metric was ready to be used. With this updated version and for the sake of comparison, a meta-evaluation of the metric for adequacy, fluency and MT quality was conducted, as well as a comparison to some of the best-known and widely-used MT metrics, showing that it outperformed them all when adequacy and fluency were assessed. Finally, we ported our MT metric to Spanish with the aim of studying its portability by checking which linguistic features in our metric would have to be slightly modified, which changes would have to be performed and finally if the metric would be easy to adapt to a new language. Furthermore, this version of VERTa for Spanish was compared to other well-known metrics used to evaluate Spanish, showing that it also outperformed them
    corecore